查看原文
其他

高分文章中都在用的找核心基因的神器—WGCNA你确定不了解下吗?

运营部-HLY 联川生物 2024-03-27




在大样本中,差异分析或趋势分析无法对基因进行有效分类。例如,比较组太多的时候,维恩图无能为力;STEM类型的聚类软件在样本构成复杂的情况下,也不能做高效、简洁的分类;另外,由于KEGG的pathway都来源文献已报到的调控关系,如果您关注的调控关系在已有数据库未录入或还没被报道,依赖这些分析难以找到线索......那如何解决这些问题呢?福利来喽! 


WGCNA译为加权基因共表达网络分析(Weighted Gene Co-expression Network Analysis),分析方法旨在寻找协同表达的基因模块(module),并探索基因网络与关注的表型之间的关联关系,以及网络中的核心基因(hub gene)。适用范围:
WGCNA适用于复杂的数据模式,一般可应用的研究方向有:不同器官或组织类型发育调控、同一组织不同发育调控、非生物胁迫不同时间点应答、病原菌侵染后不同时间点应答。一般要求15个样本及以上(3-5组及以上)。关键点:

WGCNA中两个关键的概念是模块与核心基因

把基因聚类成模块后,可以对每个模块进行三个层次的分析:

1. 功能富集分析查看其功能特征是否与研究目的相符;

2. 模块与性状进行关联分析,找出与关注性状相关度最高的模块;

3. 模块与样本进行关联分析,找到样品特异高表达的模块。

WGCNA分析基于两个假设

1.相似表达模式的基因可能存在共调控、功能相关或处于同一通路;

2.基因网络符合无尺度分布。

应用组学和领域
应用组学有转录组、转录组+代谢组、转录组+甲基化等;领域有生长发育、肿瘤发生机制、不同品系的比较、新基因注释、目标基因潜在相关基因的筛选、药物作用靶点研究等。广泛来讲可使用于任何组学和领域。分 析 内 容

准备输入文件:

①表达矩阵:可使用FPKM、RPKM、TPM等基因表达量。

②临床信息或者其它表型,即样本的属性。

 



STEP1:去除缺失值较多的基因和样品

STEP2:离群样本查看及过滤

2.1先查看是否有离群样本

无离群样本


2.2去除离群样本 (若存在明显离群样本,设定阈值,进行去除)

有离群样本

 


STEP3:确定软阈值

软阈值:6

如果R2没有到达0.85,0.9以上时,beta值则取经验值。

nSamples < 20 软阈值选取9;20 <= nSamples < 30 选取8;30 <= nSamples < 40选取7

 

STEP4:模块挖掘(每个模块中基因以及K值的输出)

一个模块中的所有基因为一个颜色,左图的上边部分是对所有基因进行的聚类,下边部分为基因聚类的热图,可以看到,有一些基因虽然属于一个模块,但从聚类上来看并不一定聚到一起,这跟样本相关性分析一样,同样处理的生物学重复样本不一定相关性系数高。这里用不同的颜色来代表那些所有的模块,其中灰色默认是无法归类于任何模块的那些基因,如果灰色模块里面的基因太多,那么前期对表达矩阵挑选基因的步骤可能就不太合适。

STEP5:基因共表达可视化

基因间表达相似度越高,颜色越深。如果是把全部基因画上去,可以很清楚的看到各个区块颜色差异,但是如果基因过多,就非常耗费资源和时间。一般情况下,绘制此图会获取部分基因绘制,默认随机取400个基因。

 

STEP6:基因和模块的相关性(MM值)

有些文章或者介绍里面,会使用MM值来筛选hub gene。主要方法就是计算所有基因和各模块特征值的相关性,然后每个模块中筛选出MM值较大的gene作为hub gene。STEP7:模块之间的相关性

STEP8:模块与样本相关性热图

除了可以分析模块与性状的关系,样本与性状的关系之外,还可以进行模块和样本的分析,这个可以为没有表型数据的客户提供研究思路,通过分析模块和样本的关系,得到模块与样本之间的相关性系数,如下图所示, 颜色越深,表示模块和样本之间越相近,进而挑选出与某一类样本相近的模块,再进行其模块的基因表达情况,功能情况等进行后续的研究。


STEP9:表型数据(性状)热图左图上方为样本的聚类情况,下方为样本性状热图,颜色越深,则表示相关性越大,这个分析可以挑选出某种性状相关性最高的样本,比如说,不同的时间点,不同的性状,则可以判断出,哪个时间点与哪个性状更相关。


STEP10:模块与性状关联分析(必须要有表型数据才可以进行分析)

 通过模块与各种表型的相关系数,可以很清楚的挑选自己感兴趣的模块进行下游分析。这个图就是把moduleTraitCor这个矩阵使用热图可视化颜色越深表示模块与性状越相关,P值越小。通过此分析,可以挑选与性状相关性较高的模块。此图可以与性状与样本的关系图一起结合,可以先挑选出与性状最相关的样本,再次挑选出与性状最相关的模块,通过分析此模块中的基因在这些样本中的表达情况,为什么如此相关等等后续研究。


STEP11:模块与样本特性(处理条件/临床特征等)相关项


STEP12:MM和GS相关性散点图

MM表示基因和模块相关性,GS表示基因与性状相关性,绘制MM和GS的散点图,可以深入探究不仅和对应模块高度相关,也和对应性状高度相关的基因。

 

STEP13:导出网络图数据(包括模块中两两基因间权重)

将主要模块里面的基因直接的相互作用关系信息导出到cytoscape绘制网络图。

注意:分析中不要急,step5: 基因共表达可视化和step13.导出网络图数据等过程分析较慢,耐心等待。

那么,问题来了,您如何实现WGCNA分析?
如果你熟悉R语言,以及其他的配套分析方法(例如GO、KEGG富集分析),可以自己动手练习和摸索。如果你不熟悉这一系列方法,或着时间不富裕。您可以放心的交付给我们联川生物公司,我们将提供丰富的分析结果、详细的说明文档和专业的售前售后服务。

相关阅读

三分钟绘制一张优美的维恩图 | 云平台

在线制作维恩图 | 分析技能

数据科学02 | R语言程序设计-数据结构与函数

数据科学03 | R语言程序设计-给符号赋值

数据科学04 | R语言程序设计-循环函数


点击下方图片进入云平台资料汇总:


所见即所得,figure有bi格

联川云平台,让科研更自由



继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存